Blind watermarking provides powerful evidence for copyright protection, image authentication, and tampering identification. However, it remains a challenge to design a watermarking model with high imperceptibility and robustness against strong noise attacks. To resolve this issue, we present a framework Combining the Invertible and Non-invertible (CIN) mechanisms. The CIN is composed of the invertible part to achieve high imperceptibility and the non-invertible part to strengthen the robustness against strong noise attacks. For the invertible part, we develop a diffusion and extraction module (DEM) and a fusion and split module (FSM) to embed and extract watermarks symmetrically in an invertible way. For the non-invertible part, we introduce a non-invertible attention-based module (NIAM) and the noise-specific selection module (NSM) to solve the asymmetric extraction under a strong noise attack. Extensive experiments demonstrate that our framework outperforms the current state-of-the-art methods of imperceptibility and robustness significantly. Our framework can achieve an average of 99.99% accuracy and 67.66 dB PSNR under noise-free conditions, while 96.64% and 39.28 dB combined strong noise attacks. The code will be available in https://github.com/rmpku/CIN.
translated by 谷歌翻译
Finetuning language models on a collection of datasets phrased as instructions has been shown to improve model performance and generalization to unseen tasks. In this paper we explore instruction finetuning with a particular focus on (1) scaling the number of tasks, (2) scaling the model size, and (3) finetuning on chain-of-thought data. We find that instruction finetuning with the above aspects dramatically improves performance on a variety of model classes (PaLM, T5, U-PaLM), prompting setups (zero-shot, few-shot, CoT), and evaluation benchmarks (MMLU, BBH, TyDiQA, MGSM, open-ended generation). For instance, Flan-PaLM 540B instruction-finetuned on 1.8K tasks outperforms PALM 540B by a large margin (+9.4% on average). Flan-PaLM 540B achieves state-of-the-art performance on several benchmarks, such as 75.2% on five-shot MMLU. We also publicly release Flan-T5 checkpoints, which achieve strong few-shot performance even compared to much larger models, such as PaLM 62B. Overall, instruction finetuning is a general method for improving the performance and usability of pretrained language models.
translated by 谷歌翻译
基于图像的3D检测是自主驾驶感知系统的必不可少的组成部分。但是,它仍然受到不满意的表现,这是有限的培训数据的主要原因之一。不幸的是,在3D空间中注释对象是极度时间/资源消耗的,这使得很难任意扩展训练集。在这项工作中,我们专注于半监督的方式,并探索更便宜的替代方案(即伪标记)的可行性,以利用未标记的数据。为此,我们进行了广泛的实验,以研究伪标签是否可以在不同环境下为基线模型提供有效的监督。实验结果不仅证明了基于图像的3D检测的伪标记机制的有效性(例如,在单眼设置下,我们在没有铃铛和哨声的Kitti-3D测试集上实现了20.23 AP,用于中等水平,从6.03 AP),但还显示了几个有趣且值得注意的发现(例如,经过伪标签训练的模型的性能要比基于相同培训数据的地面真相注释训练的表现更好)。我们希望这项工作可以在半监督环境下为基于图像的3D检测社区提供见解。代码,伪标签和预培训模型将公开可用。
translated by 谷歌翻译
图像到图像(I2i)翻译是计算机视觉中的一个具有挑战性的话题。我们将此问题分为三个任务:强烈约束的翻译,通常受约束的翻译和弱约束的翻译。这里的约束表示保留原始图像中的内容或语义信息的程度。尽管以前的方法在弱限制的任务中取得了良好的性能,但他们未能完全保留强烈和正常受限的任务中的内容,包括照片真实性的综合,样式转移和着色等,以实现强烈约束的内容传递通常,我们提出了styleflow,这是一种新的I2I翻译模型,该模型由标准化流量和一种新颖的样式意识归一化(SAN)模块组成。借助可逆的网络结构,StyleFlow首先将图像输入向前通行中的深色特征空间,而后退通行证则利用SAN模块执行内容固定的特征转换,然后将其投影回图像空间。我们的模型支持图像引导的翻译和多模式合成。我们在几个I2I翻译基准中评估了我们的模型,结果表明,在强烈约束和正常约束任务中,所提出的模型比以前的方法具有优势。
translated by 谷歌翻译
视频突出显示检测是一个至关重要但充满挑战的问题,旨在识别未修剪视频中有趣的时刻。该任务的关键在于有效的视频表示形式共同追求两个目标,即\ textit {i.e。},跨模式表示学习和精细元素特征歧视。在本文中,这两个挑战不仅通过丰富表示建模的模式内部和跨模式关系来应对,而且还以歧视性的方式塑造了这些特征。我们提出的方法主要利用模式内编码和交叉模式共发生编码来完全表示建模。具体而言,编码的模式内模式可以增强模态特征,并通过音频和视觉信号中的模式关系学习来抑制无关的模态。同时,跨模式的共同发生编码着重于同时模式间关系,并选择性地捕获了多模式之间的有效信息。从本地上下文中抽象的全局信息进一步增强了多模式表示。此外,我们使用硬对对比度学习(HPCL)方案扩大了特征嵌入的判别能力。进一步采用了硬对采样策略来开采硬样品,以改善HPCL中的特征歧视。与其他最新方法相比,在两个基准上进行的广泛实验证明了我们提出的方法的有效性和优势。
translated by 谷歌翻译
知识蒸馏(KD)在将学习表征从大型模型(教师)转移到小型模型(学生)方面表现出非常有希望的能力。但是,随着学生和教师之间的容量差距变得更大,现有的KD方法无法获得更好的结果。我们的工作表明,“先验知识”对KD至关重要,尤其是在应用大型老师时。特别是,我们提出了动态的先验知识(DPK),该知识将教师特征的一部分作为特征蒸馏之前的先验知识。这意味着我们的方法还将教师的功能视为“输入”,而不仅仅是``目标''。此外,我们根据特征差距动态调整训练阶段的先验知识比率,从而引导学生在适当的困难中。为了评估所提出的方法,我们对两个图像分类基准(即CIFAR100和Imagenet)和一个对象检测基准(即MS Coco)进行了广泛的实验。结果表明,在不同的设置下,我们方法在性能方面具有优势。更重要的是,我们的DPK使学生模型的表现与教师模型的表现呈正相关,这意味着我们可以通过应用更大的教师进一步提高学生的准确性。我们的代码将公开用于可重复性。
translated by 谷歌翻译
本文研究了一个新的在线学习问题,其中包含双流式数据,其中数据流是通过不断发展的特征空间来描述的,新的功能出现了,旧功能逐渐消失。这个问题的挑战是两个折叠:1)随着时间的推移,数据样本不断流动,可能会随着时间的推移而随着时间的流逝而携带移动的模式,因此学习者可以随时更新。 2)很少的样本描述了新出现的特征,从而导致较弱的学习者倾向于做出错误预测。克服挑战的一个合理的想法是在前进的特征空间之间建立关系,以便在线学习者可以利用从旧功能中学到的知识来改善新功能的学习性能。不幸的是,这个想法并没有扩展到具有复杂功能相互作用的高维媒体流,这在善于跨性(偏见的浅学习者)和表现力(需要深度学习者)之间的权衡受到了折衷。在此激励的情况下,我们提出了一种新颖的旧^3S范式,其中发现了一个共享的潜在子空间来总结旧功能空间中的信息,从而构建了中间功能映射关系。旧^3S的关键特征是将模型容量视为可学习的语义,根据在线方式以输入数据流的复杂性和非线性,共同产生最佳模型深度和参数。理论分析和实证研究都证实了我们提议的生存能力和有效性。
translated by 谷歌翻译
遥感图像中的Pansharpening旨在通过融合具有平面(PAN)图像的低分辨率多光谱(LRMS)图像直接获取高分辨率多光谱(HRMS)图像。主要问题是如何将LRMS图像的丰富光谱信息与PAN图像的丰富空间信息有效地结合。最近,已经提出了基于深度学习的许多方法,以便泛歌舞团的任务。然而,这些方法通常具有两个主要缺点:1)需要HRMS进行监督学习; 2)简单地忽略了MS和PAN​​图像之间的潜在关系并直接融合它们。为了解决这些问题,我们提出了一种基于学习劣化过程的新型无监督网络,称为LDP-Net。设计用于分别用于学习相应的降级过程的重新阻挡块和灰色块。另外,提出了一种新的混合损失函数,以在不同分辨率下限制泛散形图像和平底锅和平移和LRMS图像之间的空间和光谱一致性。 WorldView2和WorldView3图像上的实验表明,我们所提出的LDP-Net可以在没有HRMS样本的帮助下有效地融合平移和LRMS图像,从而在定性视觉效果和定量度量方面实现了有希望的性能。
translated by 谷歌翻译
深度神经网络(DNN)在解决许多真实问题方面都有效。较大的DNN模型通常表现出更好的质量(例如,精度,精度),但它们的过度计算会导致长期推理时间。模型稀疏可以降低计算和内存成本,同时保持模型质量。大多数现有的稀疏算法是单向移除的重量,而其他人则随机或贪婪地探索每层进行修剪的小权重子集。这些算法的局限性降低了可实现的稀疏性水平。此外,许多算法仍然需要预先训练的密集模型,因此遭受大的内存占地面积。在本文中,我们提出了一种新颖的预定生长和修剪(间隙)方法,而无需预先培训密集模型。它通过反复生长一个层次的层来解决以前的作品的缺点,然后在一些训练后修剪回到稀疏。实验表明,使用所提出的方法修剪模型匹配或击败高度优化的密集模型的质量,在各种任务中以80%的稀疏度,例如图像分类,客观检测,3D对象分段和翻译。它们还优于模型稀疏的其他最先进的(SOTA)方法。作为一个例子,通过间隙获得的90%不均匀的稀疏resnet-50模型在想象中实现了77.9%的前1个精度,提高了先前的SOTA结果1.5%。所有代码将公开发布。
translated by 谷歌翻译
本文回顾了关于压缩视频质量增强质量的第一个NTIRE挑战,重点是拟议的方法和结果。在此挑战中,采用了新的大型不同视频(LDV)数据集。挑战有三个曲目。Track 1和2的目标是增强HEVC在固定QP上压缩的视频,而Track 3旨在增强X265压缩的视频,以固定的位速率压缩。此外,轨道1和3的质量提高了提高保真度(PSNR)的目标,以及提高感知质量的2个目标。这三个曲目完全吸引了482个注册。在测试阶段,分别提交了12个团队,8支球队和11支球队,分别提交了轨道1、2和3的最终结果。拟议的方法和解决方案衡量视频质量增强的最先进。挑战的首页:https://github.com/renyang-home/ntire21_venh
translated by 谷歌翻译